智能论文笔记

VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena

Letitia Parcalabescu , Michele Cafagna , Lilitta Muradjan , Anette Frank , Iacer Calixto , Albert Gatt

分类：自然语言处理 | 计算机视觉

2021-12-14

我们提出Valse（视觉和语言结构化评估），这是一种新的基准，专为测试通用净化的视觉和语言（V＆L）模型而设计，用于对特定语言现象的视野 - 语言接地能力。Valse提供涵盖各种语言构建体的六种测试套件。解决这些需要模型在视觉模型中地对语言现象，允许比迄今为止更细粒度的评估。我们使用支持有效箔的构造的方法构建Valse，并通过评估五种广泛使用的V＆L模型的报告结果。我们的实验表明，目前的模型有很大的困难解决了大多数现象。因此，我们预计Valse就可以作为一种重要的基准，从语言角度来衡量预训过的V＆L模型的未来进展，补充规范任务为中心的V＆L评价。

translated by 谷歌翻译